欧美一区2区三区4区公司二百,国产精品婷婷午夜在线观看,自拍偷拍亚洲精品,国产美女诱惑一区二区

DataFrame

1.1 DataFrame是什么

1.2 DataFrame和RDD的區(qū)別

[外鏈圖片轉(zhuǎn)存失敗,源站可能有防盜鏈機制,建議將圖片保存下來直接上傳(img-0PH9hGCO-1655396298057)(assets/1653400255144.png)]

  • 上圖直觀地體現(xiàn)了DataFrame和RDD的區(qū)別。

  • DataFrame是基于RDD之上的分布式數(shù)據(jù)集,給予Schema信息。

    • 左邊:RDD -> 數(shù)據(jù)外在類型:Person(CaseClass),內(nèi)部結(jié)構(gòu)不知道
    • 右邊:DataFrame -> 數(shù)據(jù)內(nèi)部結(jié)構(gòu),全部知道,包含字段名稱和字段類型,但是不知道外部類型,Row類型(弱類型)

    DataFrame = RDD[Row] + Schema

1.2 RDD與DataFrame性能

  • Spark SQL性能上比RDD要高。因為Spark SQL了解數(shù)據(jù)內(nèi)部結(jié)構(gòu),從而對藏于DataFrame背后的數(shù)據(jù)源以及作用于DataFrame之上的變換進行了針對性的優(yōu)化,最終達到大幅提升運行時效率的目標。反觀RDD,由于無從得知所存數(shù)據(jù)元素的具體內(nèi)部結(jié)構(gòu),Spark Core只能在Stage層面進行簡單、通用的流水線優(yōu)化。

文章鏈接: http://m.qzkangyuan.com/13161.html

文章標題:DataFrame

文章版權(quán):夢飛科技所發(fā)布的內(nèi)容,部分為原創(chuàng)文章,轉(zhuǎn)載請注明來源,網(wǎng)絡(luò)轉(zhuǎn)載文章如有侵權(quán)請聯(lián)系我們!

聲明:本站所有文章,如無特殊說明或標注,均為本站原創(chuàng)發(fā)布。任何個人或組織,在未征得本站同意時,禁止復(fù)制、盜用、采集、發(fā)布本站內(nèi)容到任何網(wǎng)站、書籍等各類媒體平臺。如若本站內(nèi)容侵犯了原著者的合法權(quán)益,可聯(lián)系我們進行處理。

給TA打賞
共{{data.count}}人
人已打賞
建站教程投稿分享運維技術(shù)

簡單的高精度除以高精度

2022-11-24 23:35:29

建站教程投稿分享

spark SQL編程

2022-11-24 23:42:39

0 條回復(fù) A文章作者 M管理員
    暫無討論,說說你的看法吧
?
個人中心
購物車
優(yōu)惠劵
今日簽到
有新私信 私信列表
搜索
主站蜘蛛池模板: 灵山县| 刚察县| 剑阁县| 望都县| 天水市| 阆中市| 仁布县| 隆子县| 德格县| 兰州市| 新乡县| 广饶县| 蛟河市| 密山市| 中宁县| 琼海市| 文成县| 普定县| 克东县| 合水县| 聊城市| 东城区| 台山市| 阿拉尔市| 沁阳市| 双柏县| 黑山县| 河源市| 永年县| 东兰县| 元阳县| 泸西县| 万州区| 杂多县| 楚雄市| 远安县| 明溪县| 盖州市| 延长县| 钦州市| 大连市|